无监督的句子嵌入学习最近由对比度学习方法(例如SIMCSE)主导,该方法保持积极对相似,并将负面对拆开。对比操作旨在通过在积极实例之间最大化相互信息来保持尽可能多的信息,从而导致句子嵌入中的冗余信息。为了解决这个问题,我们提出了一个基于信息最小化的对比度学习(Informin-CL)模型,以保留有用的信息并通过最大化相互信息并最大程度地减少无监督句子表示学习的正面实例之间的信息熵,从而丢弃冗余信息。具体而言,我们发现信息最小化可以通过简单的对比度和重建目标来实现。重建操作通过另一个正实例重构积极实例,以最大程度地减少正实例之间的信息熵。我们在下游任务中评估了我们的模型,包括受监督和无监督的(语义文本相似性)任务。广泛的实验结果表明,我们的Informin-CL获得了最先进的性能。
translated by 谷歌翻译
Transformer-based language models have shown strong performance on an array of natural language understanding tasks. However, the question of how these models react to implicit meaning has been largely unexplored. We investigate this using the complement coercion phenomenon, which involves sentences like "The student finished the book about sailing" where the action "reading" is implicit. We compare LMs' surprisal estimates at various critical sentence regions in sentences with and without implicit meaning. Effects associated with recovering implicit meaning were found at a critical region other than where sentences minimally differ. We then use follow-up experiments to factor out potential confounds, revealing different perspectives that offer a richer and more accurate picture.
translated by 谷歌翻译
When people think of everyday things like an "egg," they typically have a mental image associated with it. This commonsense knowledge helps us understand how these everyday things work and how to interact with them. For example, when someone tries to make a fried egg, they know that it has a shell and that it can be cracked open to reveal the egg white and yolk inside. However, if a system does not have a coherent picture of such everyday things, thinking that the egg yolk surrounds the shell, then it might have to resort to ridiculous approaches such as trying to scrape the egg yolk off the shell into the pan. Do language models have a coherent picture of such everyday things? To investigate this, we propose a benchmark dataset consisting of 100 everyday things, their parts, and the relationships between these parts. We observe that state-of-the-art pre-trained language models (LMs) like GPT-3 and Macaw have fragments of knowledge about these entities, but they fail to produce consistent parts mental models. We propose a simple extension to these LMs where we apply a constraint satisfaction layer on top of raw predictions from LMs to produce more consistent and accurate parts mental models of everyday things.
translated by 谷歌翻译
近年来,在自学学习(SSL)方面取得了重大成功,这有助于各种下游任务。但是,攻击者可能会窃取此类SSL模型并将其商业化以获利,这对于保护其知识产权(IP)至关重要。大多数现有的IP保护解决方案都是为监督学习模型而设计的,不能直接使用,因为它们要求模型的下游任务和目标标签在水印嵌入过程中已知并获得,这在SSL的域中并非总是可以的。为了解决此类问题,尤其是在水印嵌入过程中下游任务多样化且未知时,我们提出了一种新型的黑盒水印解决方案,名为SSL-WM,以保护SSL模型的所有权。 SSL-WM将水印编码器的水印输入映射到不变的表示空间中,该空间会导致任何下游分类器产生预期的行为,从而允许检测到嵌入式水印。我们使用不同的SSL模型(包括基于对比度和基于生成的生成型)来评估许多任务,例如计算机视觉(CV)和自然语言处理(NLP)等许多任务。实验结果表明,SSL-WM可以有效地验证各种下游任务中被盗SSL模型的所有权。此外,SSL-WM对模型进行微调和修剪攻击非常强大。最后,SSL-WM还可以从评估的水印检测方法中逃避检测,从而证明了其在保护SSL模型IP时的有希望的应用。
translated by 谷歌翻译
我们提出了一种惩罚的非参数方法,以使用整流器二次单元(REEND)激活了深层神经网络,以估计不可分割的模型中的分位数回归过程(QRP),并引入了新的惩罚函数,以实施对瓦解回归曲线的非交叉。我们为估计的QRP建立了非反应过量的风险界限,并在轻度平滑度和规律性条件下得出估计的QRP的平均综合平方误差。为了建立这些非反应风险和估计误差范围,我们还使用$ s> 0 $及其衍生物及其衍生物使用所需的激活的神经网络开发了一个新的错误,用于近似$ c^s $平滑功能。这是必需网络的新近似结果,并且具有独立的兴趣,并且可能在其他问题中有用。我们的数值实验表明,所提出的方法具有竞争性或胜过两种现有方法,包括使用再现核和随机森林的方法,用于非参数分位数回归。
translated by 谷歌翻译
本文通过离线数据在两人零和马尔可夫游戏中学习NASH Equilibria的进展。具体而言,考虑使用$ S $州的$ \ gamma $ discousped Infinite-Horizo​​n Markov游戏,其中Max-player具有$ $ ACTIVE,而Min-player具有$ B $ Actions。我们提出了一种基于悲观模型的算法,具有伯恩斯坦风格的较低置信界(称为VI-LCB游戏),事实证明,该算法可以找到$ \ varepsilon $ - approximate-approximate nash平衡,带有样品复杂性,不大于$ \ frac {c_ {c_ {c_ {c_ { \ Mathsf {剪切}}}^{\ star} s(a+b)} {(1- \ gamma)^{3} \ varepsilon^{2}} $(最多到某个log factor)。在这里,$ c _ {\ mathsf {剪切}}}^{\ star} $是一些单方面剪接的浓缩系数,反映了可用数据的覆盖范围和分配变化(vis- \`a-vis目标数据),而目标是目标精度$ \ varepsilon $可以是$ \ big(0,\ frac {1} {1- \ gamma} \ big] $的任何值。我们的样本复杂性绑定了先前的艺术,以$ \ min \ {a, b \} $,实现整个$ \ varepsilon $ range的最小值最佳性。我们结果的一个吸引力的功能在于算法简单性,这揭示了降低方差降低和样本拆分的不必要性。
translated by 谷歌翻译
近年来,人们对少量知识图(FKGC)的兴趣日益增加,该图表旨在推断出关于该关系的一些参考三元组,从而推断出不见了的查询三倍。现有FKGC方法的主要重点在于学习关系表示,可以反映查询和参考三元组共享的共同信息。为此,这些方法从头部和尾部实体的直接邻居中学习实体对表示,然后汇总参考实体对的表示。但是,只有从直接邻居那里学到的实体对代表可能具有较低的表现力,当参与实体稀疏直接邻居或与其他实体共享一个共同的当地社区。此外,仅仅对头部和尾部实体的语义信息进行建模不足以准确推断其关系信息,尤其是当它们具有多个关系时。为了解决这些问题,我们提出了一个特定于关系的上下文学习(RSCL)框架,该框架利用了三元组的图形上下文,以学习全球和本地关系特定的表示形式,以使其几乎没有相关关系。具体而言,我们首先提取每个三倍的图形上下文,这可以提供长期实体关系依赖性。为了编码提取的图形上下文,我们提出了一个分层注意网络,以捕获三元组的上下文信息并突出显示实体的有价值的本地邻里信息。最后,我们设计了一个混合注意聚合器,以评估全球和本地级别的查询三元组的可能性。两个公共数据集的实验结果表明,RSCL的表现优于最先进的FKGC方法。
translated by 谷歌翻译
条件分布是描述响应与预测因子之间关系的基本数量。我们提出了一种学习条件分布的Wasserstein生成方法。所提出的方法使用条件发生器将已知分布转换为目标条件分布。通过匹配涉及条件发生器和目标关节分布的联合分布估计条件发生器,使用Wassersein距离作为这些关节分布的差异测量。我们建立了所提出的方法产生的条件采样分布的非渐近误差,并表明它能够减轻维度的诅咒,假设数据分布被支持在低维集上。我们进行数值实验以验证提出的方法,并将其应用于条件采样生成,非参数条件密度估计,预测不确定性量化,二抗体响应数据,图像重构和图像生成的应用。
translated by 谷歌翻译
语言模型(LMS)在多大程度上在答案时在多大程度上建立场景的“心理模型”(例如,关于特定伦理困境的问题)?虽然认知科学表明,心理模型在人类问题解决中发挥着基本作用,但目前尚不清楚现有LMS的高问答性能是由类似的模型建设进行支持 - 如果不是,那是否可以解释他们众所周知的灾难性的失败。我们观察到Magaw是一种现有的基于T5的LM,当探测时提供了一些有用但是情境问题的有用但不足的心理模型(估计精度= 43%,有用= 21%,一致性= 42%)。我们提出梦想,一种采用情境问题作为输入,以产生精神模型的表现,没有任何其他任务的心理模型培训数据。它通过来自现有NLP资源的遥远监督来继承其社会型号。我们的分析显示,与金刚鹦鹉相比,梦想可以产生明显更好的精神模型(估计精度= 67%,有用= 37%,一致性= 71%)。最后,梦想生成的心理模型可以用作情境QA任务的其他背景。此附加上下文将MACAW零拍摄模型的答案精度提高到三个不同数据集上的+ 1%和+ 4%(绝对)。
translated by 谷歌翻译
在本文中,我们考虑从噪声损坏的$ M $二进制测量恢复$ N $尺寸信号,并在假设目标信号具有低生成内在尺寸,即,目标信号可以通过$ l近似生成。$ -lipschitz生成器$ g:\ mathbb {r} ^ k \ lightarrow \ mathbb {r} ^ {n},k \ ll n $。虽然二进制测量模型是高度非线性的,但我们提出了最小二乘解码器并证明,最多可达$ C $,具有很高的概率,最小二乘解码器实现了急剧估计错误$ \ Mathcal {O}(\ SQRT {只要$ m \ geq \ mathcal {o}(k \ log(ln))$,只要$ m \ geq \ mathcal {o}广泛的数值模拟和具有最先进方法的比较显示了最小的方形解码器对噪声和标志翻转是强大的,如我们的理论所示。通过用正确选择的深度和宽度构造Relu网络,我们验证了(大约)的深生成点,这是独立的兴趣。
translated by 谷歌翻译